Partie 1 : Acquisition et chargement des données

On télécharge les fichiers de classement, et on supprime les skippers qui a abandonné la course dans chaque période.

Ensuite,on acquiert les fichiers de caractéristiques de bateau, on le transforme dans un DataFrame en indiquant le nom du bateau et le nom de skipper.

Vu que pour le skipper 'François Guiffant', on a presque aucune information sur son bateau, donc il ne sert pas à faire l'analyse, par conséquence, on le supprime de la liste.

Partie 2 : Préparation des données

Extraction des caractéristiques techniques de chacun des voiliers.

On remplit les valeurs manquants dans la colonne poids par la méthode KNN Regression

Rapprochement des données des voiliers avec celle des classements.

Préparer les données pour faire la régression linéaire.

Partie 3 : Analyses et story telling

Corrélation et régression linéaire entre le classement (rang) et la vitesse utile (VMG) des voiliers

Conclusion : On peut voir que parfois on obtient un résultat presque parfait avec un score de R2 égale à 0.98, mais parfois le score est très bas, c'est peut-être à cause de la façon aléatoire de séparation entre les données d'entrainement de les données de test.

Impact de la présence d'un foil sur le classement et la vitesse des voiliers.

Conclusion : On peut voir que avec la présence d'un foil, le classement est généralement plus haut que celle qui n'a pas de foil, et la vitesse des voiliers est aussi plus rapide. Donc on peut conclure que la présence d'un foil a une influence positif sur la course.

Visualisation de la distance parcourue par voilier.

Cartes avec les routes d'un ou plusieurs voiliers.